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基于 引文 内 容 分 析 的 引用 情感 识别 研究 ， 


ERZ WAE” S ERAI RRE 
' 山东 理工 大 学 科技 信息 研究 所 ”淄博 255049 “中 国 科 学 院 成 都 文献 情报 中 心 ” 成 都 610041 
中国 科 学 院 大 学 ”北京 100190 


摘要 : [目的 /意义 ] 针 对 自动 识别 论文 引用 情感 问题 ,提出 一 种 基于 引文 内 容 分 析 的 识别 方法 并 进行 可 视 
化 展示 ,克服 基于 简单 引用 频次 计量 无 法 区 分 不 同 引 用 情感 的 问题 。[ 方 法 /过 程 ] 首先 ,利用 正则 表达 式 抽 取 
出 论文 全 文中 的 引文 内 容 信 息 ;然后 ,利用 TF-IDF 算法 筛选 出 引用 情感 特征 词 ,结合 情感 词典 ,利用 情感 分 析 
技术 对 引文 内 容 进 行 引用 情感 识别 ;最 后 ,利用 可 视 化 工具 展示 出 引用 情感 整体 分 布 情况 。[ 结果 /结论 ] 该 方 
法 能 够 有 效 识 别 出 抗 衰老 领域 论文 数据 集中 引用 情感 情况 。 实 验 结 果 显 示 , 该 领域 正面 引用 占 总 引用 次 数 的 
21% ,中 立 引 用 占 总 引用 次 数 的 78% ,负面 引用 仅 占 总 引用 次 数 的 1%。 与 传统 引文 网 络 相 比较 ,基于 引用 情 
感 的 可 视 化 图 谱 可 以 有 效 识别 出 不 同 引用 情感 在 整体 数据 集合 上 的 分 布 情况 。 
LC) 关键 词 : 引文 内 容 分 析 引用 情感 ”情感 分 析 可 视 化 
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uM O 随 着 文本 挖掘、 自然 语言 处 理 和 可 视 化 等 技术 方 
d THEME OUO 法 不 断 进步 ,逐渐 可 以 利用 其 进行 提取 .计算 和 挖掘 隐 
的 蕊 略 情报 研究 和 服务 工作 起 着 重要 的 作用 。 其 中 ， 


藏 在 引文 内 容 中 的 语义 信息 与 关联 。 此 外 , 随 着 开放 
基 汪 期 刊 论文 被 引 次 数 . 卫 指数 和 影响 因子 等 指标 的 。 在 取 ( On Access, OA) EAIM JAS HEA TOMU 
强 文 分 析 方 法 广泛 应 用 于 科学 知识 评价 、 科 学 发 展 模 Bcc Mn MSIE AE Pu Am: RN 
GR MPENI. (URS PLUR GERI o MI 


N : x . 文 内 容 分 析 ( Citation Content Analysis, CCA ) " , 33 Wr 
HEERMA ZE, Dog UB io Bo die fO e ic 
得 越 来 越 多 研究 者 的 关注 与 认可 用 情感、 
杭 计 法 存在 一 定 的 不 足 ; 传 统 的 引文 分 析 方法 将 引文 ”获得 越 来 越 多 研究 者 的 天 注 5 认可 ,应 用 于 引用 仿 


、 题 识 另 A f 究 领 二 DB] 。 
等 位 看 待 ,并 且 忽 略 了 引文 在 文献 中 的 具体 表现 ,比如 AEEA 
引用 位 置 . 引 文 次 数 和 引用 语 境 等 信息 ;仅仅 通过 被 引 。 pem 


用 次 数 无 法 揭示 出 施 引 文献 和 被 引文 献 在 研究 内 容 上 
的 关联 ,在 一 定 程度 上 降低 了 引用 分 析 的 准确 性 和 有 引文 内 容 分 析 相关 研究 早 在 20 世纪 70 ERRE 


效 性 "" 。 此 外 , 随 着 科研 评价 体系 的 不 断 发 展 对 引文 出现。M. J. Moravesik 等 通过 对 引文 由 容 及 其 上 下 文 
分 析 提出 了 新 的 要 求 , 比如 :国家 自然 科学 奖 规定 “得 ”进行 解读 ,细致 分 析 了 引用 情感 倾向 引用 作用 和 重要 
到 国内 外 自然 科学 界 公认 是 指 甚 重要 科学 结论 已 为 国 ”程度 ,其 研究 表明 了 引文 内 容 分 析 的 必要 性 ”。 进 而 ， 
内 外 同行 在 重要 国际 学 术 会 议 ` 公 开发 行 的 学 术 刊 物 ，。” 互 Small 通过 人 工 判读 .归纳 总 结 的 方法 ,分 析 了 化 学 
尤其 是 重要 学 术 刊 物 以 及 学 术 专著 所 正面 引用 或 者 应 ”学 科 高 被 引 论文 的 引用 内 容 ,认为 引文 内 容 是 施 引 文 
用 ”中 。 所 以 ,如 何 有 效 识别 .判断 “正面 .负面 引用 献 中 观点 表达 的 概念 符号 。 随 着 引文 内 容 分 析 研 究 的 
等 "引用 情感 倾向 ,改进 基于 引用 次 数 的 引文 分 析 评价 ”展开 ,研究 人 员 尝 试 结合 引文 内 容 分 析 改 进 基于 引用 


c—— 


* 本 文系 教育 部 人 文 社会 科学 研究 青年 基金 项 目 “ 基 于 引文 内 容 分 析 的 科技 创新 路 径 识 别 研究 ”( 项 目 编号 :16YJC870008 ) 和 山东 理工 大 学 
高 等 教育 研究 项 目 ( 项 目 编号 :2018GJY08 ) 研究 成 果 之 一 。 

作者 简介 : AA (ORCID :0000 -0002 -8641 -0080) ,讲师 ,硕士 ; 刘 自 强 (ORCID:0000 -0003 -1814 -8655 ) ,硕士 研究 生 ;和 白 如 江 (ORCID : 
0000 —0003 -3822 —8484) , 副 研 究 馆 员 , 博 士 ,通讯 作者 ,E-mail:brj@sdut. edu. cn; 陈 军 营 (ORCID:0000 -0003 -3550 -1641) ,硕士 研究 生 。 
收 稿 日 期 :2018 -01 -21 修 回 日 期 :2018 -05-03 本 文 起 止 页 码 :112 -121 本 文责 任 编辑 : 杜 杏 叶 


112 


^ LAM dT 
C | naX IV mS 1 F RH | l) 


BOB, Xp ES, 白 如 江 , 等 . ATI LARA MARRIR]. EJ E HER EE ,2018,62(15):112 - 121. 


次 数 的 引文 分 析 方法 , 1980 4E, H.. Small 等 提出 了 
结合 引文 内 容 分 析 的 同 被 引 聚 类 分 析 方法 ,首先 基于 
同 被 引 聚 类 分 析 某 学 科 领 域 的 演化 过 程 ,然后 通过 引 
文 内 容 分 析 , 利 用 主题 词 \ 短 语 概括 表征 引文 具体 内 
容 , 进 而 分 析 同 被 引 聚 类 的 主题 ,揭示 共 被 引文 献 之 间 
的 深度 关联 ,提高 共 被 引 链接 的 认 知 价值 。 并 通过 对 
重组 DNA 领域 的 实证 研究 ,证 明 该 方法 为 探索 学 科 领 
域 的 发 展演 化 具有 重要 意义 9 。 但 是 ,由 于 当时 期 乔 
数据 库 全 文 质量 以 及 计算 机 技术 的 限制 ,研究 人 员 主 
要 采用 人 工 判读 .归纳 总 结 的 方法 进行 引文 内 容 分 析 ， 
难以 处 理 大 样本 数据 而 且 人 工 判 读 主 观 性 较 强 ,因此 
准确 性 受到 一 定 的 质疑 ,限制 了 引文 内 容 分 析 的 进 一 
步 发 展 。 
一 随 着 自然 语言 处 理 技 术 和 全 文 数据 库 的 发 展 , 引 
文山 容 分 析 获得 了 新 的 发 展 ,并 对 传统 引文 分 析 的 发 
RIDA THAJ. 2012 年 ,Y，Ding 等 提出 了 引文 
WE (Citation Content Analysis, CCA) 研究 框架 ， 
JE ua C AE HR — foa ac AH 3; i, e 
Hob Rmi b XATDA S JH. UBER HA 
ZO p e AN Kt AUR I Plc De COS ERN a 1 
ESSI 7:42:38 rr A C-value 算法 识别 出 引文 内 
容量 的 研究 主题 ,其 研究 表明 与 基于 标题 .摘要 等 字段 
的 红 题 识别 结果 相 比 ,基于 引文 内 容 分 析 的 主题 识别 
结 熏 与 论文 研究 内 容 更 加 符合 ,能 较 好 地 揭示 被 引文 
卖 新 施 引文 献 之 间 在 语义 内 容 上 的 关联 ,认为 引文 内 
容 穿 析 是 对 传统 以 被 引用 次 数 为 基础 的 引文 分 析 的 重 
RZE” 。 陆 伟 等 指出 为 更 好 地 支持 文献 语义 关系 控 
据 6 将 自然 语言 处 理 、 机 器 学 习 技术 引入 引文 内 容 分 
析 , 并 提出 了 一 套 引 文 内 容 标注 框架 ”。 赵 蓉 英 等 认 
为 引文 内 容 分 析 是 引文 分 析 的 新 发 展 ,可 以 更 加 准确 
地 测度 和 评价 被 引 作者 ,期 刊 影响 力 ,透视 作者 的 引证 
动机 等 ,对 科学 计量 学 和 科学 学 的 发 展 大 有 神 益 "。 
在 此 基础 上 , 赵 鞭 英 等 于 2016 年 结合 引文 内 容 分 析 方 
法 ,提出 了 基于 位 置 的 共 被 引 分 析 框架 ,证 明了 结合 引 
文 内 容 分 析 的 基于 位 置 的 共 被 引 方式 明显 优 于 传统 共 
被 引 分 析 方 法 1。 

在 引用 情感 类 型 研究 方面 , 早 在 1962 年 ,E. Garf- 
ield 就 发 现 了 引文 频次 分 析 的 不 足 , 指 出 引用 情感 的 
多 样 性 ,并 归纳 出 向 开拓 者 致敬 ,向 同行 致敬 等 15 种 
引用 情感 "站 。 此 后 ,V，Cano 等 专家 学 者 也 指出 由 于 
引用 行为 是 复杂 多 样 的 ,引用 情感 并 不 总 是 正面 的 (还 
存在 负面 引用 虚假 引用 等 ) ,简单 的 被 引 频次 并 不 足 
以 衡量 学 术 影响 力 的 高 低 ” -7 。 因 此 ,准确 高效 地 


识别 引用 情感 倾向 ,判断 正面 负面 引用 ,可 以 有 效 提 
升 基于 简单 引用 频次 的 评价 质量 

在 引用 情感 识别 方法 方面 ，M. J. Moravesik 等 通 
过 人 工 判读 引文 全 文 对 引用 情感 进行 了 研究 ,并 将 引 
旧情 感 分 为 肯定 引用 否定 引用 等 5 个 维度 ”; 同年 ， 
fr M. J. Moravesik 研究 的 基础 上 , D. E. Chubin 等 研 
究 引 文 内 容 分 析 对 于 引用 著录 分 析 的 辅助 .替代 作用 ， 
其 中 ,利用 分 类 树 进行 引用 情感 倾向 分 析 , 将 分 类 树 的 
第 一 层 分 为 正面 ,负面 引用 两 个 子 树 ”。 总 体 来 说 ， 
由 于 信息 技术 发 展 的 限制 ,引用 情感 识别 主要 利用 问 
卷 调 查分 析 和 人 工 判 读 引 文 内 容 两 种 方法 ,存在 效率 
低 、 主 观 性 较 强 等 不 足 。 

近年 来 ,基于 自然 语言 处 理 技术 的 引用 情感 识别 
相关 研究 获得 了 一 定 发 展 。S. Teufel 等 提出 了 一 种 基 
于 监督 式 机 器 学 习 的 引用 情感 自动 分 类 方法 框架 , 利 
情感 分 析 技 术 进 行 引 用 功能 (引用 情感 ) 分 类 ,具体 
分 为 不 足 . 肯定、 对比 和 中 立 4 个 类 别 ,指出 利用 情感 
分 析 技 术 能 够 准确 ,有效 识 别 引用 情感 "”。 刘 盛 博 
提出 了 一 种 基于 数据 挖掘 技术 的 引用 情感 识别 方法 ， 
以 PubMed 全 文 数据 库 为 数据 来 源 ,利用 引用 内 容 语 
义 结构 与 特征 词 来 判断 引用 情感 (正面 引用 、 人 负面 引 用 
和 中 立 引 用 ) ,并 以 此 为 基础 ,构建 了 一 个 基于 引用 内 
容 的 引文 评价 平台 '” 。 基 于 自然 语言 处 理 技术 的 引 
用 情感 识别 , 相 较 于 利用 调查 问卷 、 人 工 判 读 分 析 方 
,能 够 提高 分 析 效 率 与 客观 性 ,存在 的 不 足 是 引用 情 
感 识别 结果 分 析 较 为 浅显 ,如 何 有 效 利用 引用 情感 识 
| 结果 有 待 进一步 深入 研究 。 

综 上 所 述 ,传统 的 引用 情感 识别 方法 主要 利用 问 
卷 调查 分 析 和 人 工 判 读 引 文 内 容 两 种 方法 ,存在 效率 
低 .主观 性 较 强 等 不 足 ; 基 于 统计 自然 语言 处 理 技术 的 
引用 情感 识别 方法 难以 有 效 分 析 引 用 情感 识别 结果 ， 
在 一 定 程度 上 降低 了 引用 情感 识别 的 准确 性 和 有 效 
性 。 特 别 是 在 特征 词 库 构建 方面 ,前 期 研究 工作 主要 
采用 已 有 的 感情 词典 进行 情感 极 性 判别 ,而 科技 论文 
引用 情感 与 通用 情感 词典 会 有 较 大 差异 。 因 此 ,为 了 
改进 目前 引用 人 情感 识别 相关 研究 中 缺乏 有 效 的 情感 词 
典 构建 方法 ,本 文 提出 一 种 基于 引文 内 容 分 析 的 引用 
情感 识别 方法 ,通过 采用 tf * idf 结合 词性 标注 的 方法 
构建 科技 文献 引用 情感 词 库 ,进而 提出 引用 情感 判别 
模型 ,实现 引用 情感 极 性 判别 。 通 过 对 论文 中 引用 情 
感 的 准确 识别 可 以 为 基于 引用 频次 的 文献 计量 提供 不 
同 引 用 行为 判定 的 数据 支持 。 
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为 了 准确 、 有 效 识别 出 引用 情感 ,在 借鉴 现 有 引文 
动机 识别 理论 与 方法 的 基础 上 ,结合 数据 挖掘 、 情 感 分 
析 和 可 视 化 技术 ,提出 一 种 基于 引文 内 容 分 析 的 引用 
情感 识别 方法 (具体 流程 见 图 1 ) 。 该 方法 以 引文 全 文 
数据 作为 研究 对 象 ,首先 ,利用 正则 表达 式 技术 抽取 出 
论文 全 文中 的 引文 信息 ;然后 ,利用 特征 词典 .情感 分 
析 技 术 识 别 引 用 人 情感 ;最 后 ,利用 可 视 化 分 析 方 法 ,对 
引用 情感 识别 结果 进行 可 视 化 分 析 , 展 示 引 用 情感 分 
布 情况 。 


引用 内 容 抽取 基于 TF_IDF_w 特征 词 库 构建 xcu ERT 


1 

We 2 | | 3 引用 动机 识别 | 
基于 规则 4 
ME oni o ENTM €— M— PICS 
Lre) EIL | 
OB : ro wy 
eB i| dx 
| | | Ilall 
|QOwLexYER [p E o E | 
P ONDES Nest 引用 动机 可 视 化 | 

LI 
co 图 1 引用 情感 识别 方法 框架 


C ;第 一 步 ,数据 集 构 建 。 从 相关 全 文 数据 
检索 相关 领域 研究 论文 ,利用 Python JE 
HIFR XML 格式 的 全 文 数据 并 保存 至 


取 、 分 析 。 

以 PubMed 数据 库 中 Neuroprotective and. Anti -Aging 
Potentials of Essential Oils from Aromatic and Medicinal 
Plants — X. XML 全 文 文本 为 例 , 对 其 结构 进行 分 析 
( 见 图 2) ,可 以 发 现 其 XML 全 文 文本 数据 中 包括 题 
名 期 刊 . 作 者 、 摘 要 、 图 表 、 引 用 内 容 和 引用 位 置 等 众 
多 标识 信息 ,利用 Python 编写 信息 抽取 程序 ,可 以 抽取 
其 中 的 施 引 文献 著录 信息 ( < article-title > … < /article- 
title > , < article -id pub -id -type = " pmid" > 28611658 
</article-id > ) 、 被 引文 献 标签 与 引文 内 容 (ref -con- 
tent , Author , 


< xref rid = "" ref -type = "" > pub -date 
</xref > ) 和 被 引文 献 标 签 与 著录 信息 ( < ref -list > … 
</ refdist > , «ref id ="B1" >= </ref>), 

如 何 抽取 全 文 ref-content (Author, < xref rid = "" 
ref 4ype ="" > pub-date < /xref > ) 标 签 的 引文 内 容 是 其 
重点 与 难点 。 考 虑 到 作者 写 论文 过 程 中 参考 文献 序号 
使 用 的 不 规范 .不 统一 情况 ,构建 引文 内 容 抽取 规则 时 
需要 着 重 考 虑 以 下 两 种 情况 : 

(1) 只 提 及 一 篇 参考 文献 :The EOs are abundant in 


flowers, leaves, barks and are usually isolated via hydro- 


Fp pa Te 
+type=” pac MTI C arti cle-id 
do1' ^10, 3389/fnaqi. 2017. 00168c/art icle-id 


O a 施 引文 献 著 录 信 息 


ve and Anti-Aging Potentials of Essential Oils fron|A 


本 
>< 第 二 步 , 引 文 内 容 抽 取 。 利 用 Python P 
台 镶 写 引文 全 文 信息 抽取 程序 ,抽取 出 施 引 
ER 被 引文 献 的 元 数据 信息 和 引文 内 容 信 
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ECHOS A CSV 文件 用 于 后 续 分 析 。 LS 


第 三 步 , 引 用 情感 识别 。 利 用 证 * idf 方 
法 筛选 出 引文 全 文 内 容 中 的 特征 词 ,结合 情 
感 词典 ,利用 情感 分 析 技 术 对 引用 内 容 进行 
分 析 并 识别 出 引用 情感 。 

第 四 步 ,引用 情感 可 视 化 分 析 。 在 引用 情 
感 识 别 结果 的 基础 上 ,构建 包含 引用 情感 的 复 
杂 网 络 数据 集 ,揭示 出 引用 情感 分 布 情况 。 
3.1 引文 内 容 抽 取 

论文 数据 格式 对 引文 内 容 抽取 效果 影响 较 大 。 
PDF 格式 的 全 文 数据 具有 不 易 解析 、 可 读 性 差 等 特点 ， 
引文 内 容 抽 取 结 果 往 往 准 确 率 较 低 , 而 且 难 以 处 理 大 
样本 的 数据 。 相 较 于 PDF 等 非 结 构 化 全 文 数 据 ,XML 
全 文 数据 对 论文 全 文 进行 了 细致 标注 (对 全 文 数据 进 
行 预 处 理 , 标 注 了 图 表 、 引 用 内 容 和 引用 位 置 等 信息 )， 
便于 利用 计算 机 进行 大 样本 数据 的 引文 内 容 信 息 抽 
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imr d 被 引文 献 标签 与 著录 信息 
Ge jounal 


N i 
BB seu i 
EN 1 


CE 
P 


"journal 


types” author 


XML 全 文 结构 


2 XML 全 文 结 构 与 引用 内 容 信息 抽取 


distillation , cold pressing methods ( Edris, « xref rid = 
"B37" ref type = "bibr" 22007 «/xref >). 
句子 中 只 有 一 处 ref content 标签 (一 篇 参考 文献 ) , 
那么 ref-content (Author, < xref rid = "" ref-type 2 "" > 
pub date < /xref > ) 标 签 所 在 整个 句子 作为 引文 内 容 。 
(2) 提 及 两 篇 及 两 篇 以 上 :The use of EOs as thera- 
peutic remedy is very ancient and in the bible (Dumas and 
Newhouse , < xref rid = "B36" ref type = "bibr" >2011 


</xref > ) , EOs were considered as spiritual , mental and 


ed Vian Adia H 
Chinay iAd HHI 
C | IInaAIVmETFAI 


BOB, Xp ES, 白 如 江 , 等 .基于 引文 内 容 分 析 的 引用 情感 识别 研究 [J] .图书 情报 工作 ,2018 ,62(15 ) 1112 - 121. 


physical healing agents ( Guenther , < xref rid = " B48" 
ref type = "bibr" 21950 «/xref >). 

Thus , a boost in the cholinergic tone may potentially 
regress the cognitive function. 

句子 中 有 两 处 及 以 上 ref content 标签 (两 篇 及 以 上 
参考 文献 ) ,那么 以 相 邻 的 两 个 < xref rid = "" ref-type 
="" >pub-date < /xref > 标签 作为 标记 划分 引用 句 ,最 
小 单位 为 一 个 分 句 。 
3.2. 引用 情感 识别 
3.2.1 引用 情感 类 别 的 划分 半 个 多 世纪 以 来 ,E. 
Garfield „H. Small fil W. Shadish "" 等 众多 专家 学 者 针对 
引用 情感 类 别 的 划分 进行 了 深入 研究 。 从 分 析 方法 角 
度 来 看 ,逐渐 由 问卷 调查 分 析 和 人 工 判读 等 方法 向 自然 
VPE FR ,情感 分 析 和 可 视 化 分 析 方 法 转变 ;从 划分 类 
别 侍 度 来 看 ,引用 情感 类 别 的 划分 也 逐渐 随 着 分 析 方法 
的 区 化 而 变化 ,最 明显 的 特征 就 是 划分 类 别 越 来 越 简 
活 和 六 括 ,便于 大 样本 数据 的 分 析 。 引 用 类 别 划分 的 变 
化 红 要 有 两 方面 的 原因 ,首先 是 引用 情感 识别 方法 的 转 
变 千 成 难以 准确 、 细 致 识别 出 过 于 复杂 的 引用 情感 ;其 
和 于 引文 分 析 数 据 量 的 爆炸 式 增长 ,过 于 细致 的 引 
甩 情 感 类 别 划分 会 造成 分 析 效 率 准确 性 的 降低 。 
O 〇 因此 ,本 文 借鉴 S，Teufel , 刘 盛 博 等 学 者 的 引用 情 
RADI ,将 引用 情感 划分 为 正面 引用 、 负 面 
引 量 和 中 立 引用 三 种 类 别 。 
32*0 基于 特征 词 和 情感 词典 的 引用 情感 识别 ”由 
TUERI SCHULTE PE ,科学 性 ,全 文中 很 少 出 现 感情 色 
彩 强烈 的 语句 ,而 且 期 刊 论文 与 微 博 .论坛 数据 相 比 ， 
kD 情感 词汇 ,难以 通过 简单 的 情感 词 判断 引用 情感 。 
因此 ,仅仅 利用 情感 分 析 技 术 进行 引用 情感 识别 具有 一 
EJERE, RXRA E idf 加 词性 标注 筛选 极 性 特 


征 词 和 通用 情感 词典 相 结 合 的 方法 进行 引用 情感 识别 。 

引文 内 容 主要 由 内 容 词 和 特征 词 构成 。 其 中 ,内 
容 词 是 引文 中 传递 信息 的 主体 ,主要 以 名 词 形 式 体现 ; 
特征 词 是 引文 中 表达 的 情感 和 状态 主要 以 形容 词 2 
词 和 连接 词 形式 体现 。 一 个 句子 中 除去 名 词 .介词 和 
限定 词 等 ,通过 分 析 特 征 词 可 以 有 效 理解 句子 的 情感 。 
因此 ,首先 利用 Stanford. POS Tagger ”进行 词性 标注 ， 
从 以 下 4 种 类 型 对 特征 词 进行 词性 标注 :形容词 (JV) 、 
动词 (V8) Mi RB 和 连接 词 (CC)。 例 如 ,对 句子 
“The objective of anti -aging medicine is to live as long as 
possible in good health. ”进行 词性 标注 ,标注 结果 为 : 
The DT objective NN of. IN anti-aging |. NN medicine .NN 
is VBZ to. TO live VB as. RB long RB as, IN possible JJ 
in IN good JJ health NN. _. 

然后 ,基于 TF-IDF 算法 从 中 筛选 出 作为 特征 词 的 
JE E18] (JJ) WVB) .副词 RB 和 连接 词 (CC) , TF- 
IDF 算法 公式 如 下 : 


n. 
TFADF, , = TF, x IDF, (TE, = Si IDF,, = log 
zu 


IDI 
ETAN - 


Jr in, AERE SER t 在 文件 由 中 出 现 的 次 数 ， 
Yn, AEI d, 中 所 有 词语 数 之 和 ;1D1 指 文档 总 数 ， 
1D, 1 指 包含 词语 4 的 文档 数目 (1 + 1D, 1 为 了 防止 分 
母 为 0) 。 

利用 TF-IDF 算法 筛选 出 特征 词 后 ,结合 HowNet 
构建 情感 词典 并 进行 情感 词汇 的 赋值 ( 见 表 1) ,如 
HowNet 情感 词典 中 没有 相应 词汇 ,本 文人 工 进行 了 标 
注 整理 ,最 终 形成 引用 情感 词典 。 利 用 公式 (2) ,对 引 
文 内 容 进行 判断 引用 情感 ,以 期 提高 识别 的 准确 性 。 


表 1 引用 情感 与 情感 词典 


引用 情感 情感 词汇 强度 值 值 范 围 
正面 引 accurate| better! complete | convinced |agreement| proud--:--- 1 (0,+oo) 
负面 引 burden | contrast | degrade | lack | poor | worse | howeverl regret……… -1 (7o ,0) 
中 立 引 用 apply| describe! discuss| publish| use……' 0 0 


情感 强度 的 计算 方法 ,如 公式 (2) 所 示 ; 
E- LEG) (2) 


其 中 ,Ek 表示 引用 句 的 情感 强度 值 ( doo DH B rp e 
个 情感 词 的 情感 强度 值 相 加 ) ,E(5;) 表 示 引 用 句 中 某 
词语 S, 的 情感 强度 值 。 

比如 ,计算 某 一 引用 句 “However, this algorithm is 


very slow and has been outperformed by more recent meth- 


ods. ”的 情感 强度 值 , 基 于 构建 的 情感 词典 可 以 识别 出 
其 中 的 情感 词汇 “However”、 FI “ outper- 
formed” , 利用 公式 (2) 进 行 计 算 可 得 该 引用 句 的 情感 
强度 值 E=[(-1)+(-1) «C-1)]/32 -1,2m 
判断 该 引用 为 负面 引用 。 
3.2.3 ”引用 情感 可 视 化 ”由 于 识别 出 的 引用 情感 结 
果 无 法 从 整体 上 表明 不 同 引 用 情感 文献 在 数据 集中 的 
分 布 情况 , 所 以 需要 在 传统 引文 网 络 可 视 化 分 析 方 法 
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的 基础 上 ,利用 社会 网 络 可 视 化 软件 ,如 Ge- : 
phi ”对 引用 情感 识别 结果 进行 可 视 化 分 析 。 : 
引用 情感 可 视 化 图 谱 构 建 的 具体 步骤 为 : ? 

(1) 数据 转换 。 将 引用 情感 识别 结果 表 — 
格 中 的 施 引文 献 卫 ,被 引文 献 ID 和 引用 情感 32 
三 项 数据 ,分 别 作为 Source, Target 和 Weight — 5 
标签 构建 Gephi 能 够 识别 的 边 表格 数据 形式 ， 了 
其 中 ,正面 .负面 和 中 立 引用 的 Weigh 分 别 标 = 
记 为 1, -1 和 0, 然 后 保存 为 .csv 格式 文件 以 备 。。 


article-id1ffj 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
1413581 
2127228 


2127228 
2127228 
2127228 


分 析 。 : 

(2) 初 始 引文 网 络 可 视 化 图 谱 构建 。 基 2 
于 上 一 步骤 生成 的 边 表格 数据 ,导入 Gephi 
计算 .解析 边 、 节 点 数据 生成 初始 引文 网 络 
图 谱 , 然 后 自 定义 图 谱 的 布局 (节点 . 边 的 大 小 和 颜色 
加 (3 ) 标 识 引用 情感 的 引文 网 络 可 视 化 图 谱 构 建 。 
B 和 引文 网 络 可 视 化 图 谱 的 基础 上 ,基于 引用 情感 
数 蚤 进一步 调整 引文 网 络 可 视 化 图 谱 的 布局 ,进行 标 
误 别 用 情感 的 引文 网 络 可 视 化 图 谱 构建 ,具体 设置 是 
将 eight =1, -1 和 0 的 边 赋予 红色 ,绿色 和 黄色 有 向 
线 右 表示 正面 .负面 和 中 立 引 用 。 


4 实验 与 分 析 | 


4,7. 实验 环境 与 数据 集 构建 

>3&(1) 硬件 。Windows10 系统 、i5 - 2450 CPU, 
sR .500G Hard Drive, 

*—7(2) 软件 。Python 、KNIME Stanford POS Tagger, 
cq. 

(3) 数据 集 构 建 。 以 PubMed 生物 医学 数据 库 所 
收录 的 抗 衰老 (Anti -aging ) 领域 XML 格式 的 论文 全 文 
为 研究 对 象 。 通 过 检索 式 : (TITLE:“ anti -aging" OR 
ABSTRACT.“anti-aging”OR KW:"anti-aging" ) ,检索 
范围 :题名 ,时 间 跨 度 :截止 至 2016 年 12 月 31 日 ,对 
PubMed 数据 库 进行 检索 ,检索 到 1 135 篇 相关 论文 。 
利用 PubMed 提供 的 OpenURL 接口 ,编写 了 Python J€ 
虫 程序 对 其 XML 全 文 数据 进行 仆 取 并 保存 至 本 地 计 
算 机 。 

基于 3.1 的 分 析 , 抽 取出 施 引 文献 与 被 引文 献 的 
关联 关系 以 及 被 引文 献 在 全 文中 所 对 应 的 引用 内 容 ， 
共 获 得 45 5277 个 引用 名 ,并 人 工 标注 了 2 000 个 句子 
的 引用 极 性 , 见 图 3。 其 中 ,article-idl 表示 施 引 文献 ， 
article-id2 表示 被 引文 献 , ref -content 表示 引用 内 容 ， 
section 表示 引用 章节 位置,pub -date 表示 被 引文 献 发 
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ref-content E3 article-id2ẸJ section 四 — pub-date EJ] 
All strains were maintained at 15 on nematode growth medium NGM 4366476 ^ Experimental 1974 
By several measures, BB treatment slowed aging in C. elegans , r 7253717 Results 1981 
Regardless of the specific mechanism involved, it is clear from 1 — 3374177 Discussion 1988 
Using the short-lived nematode, C. elegans , we have established 8247153 Discussion 1993 
To measure levels of 4-HNE, animals were collected, fixed with 4! ^ 8254383 Experimental 1993 
Finally, oxidative stress appears to be a major factor limiting | — 8415630 Introduction 1993 
Lipofuscin levels increase with aging in many organisms, includi: 7934213 Results 1994 
This mutation results in overproduction of superoxide and increa: 7934213 Results 1994 
One possible explanation for the beneficial effects of BB polypht — 7638227 Results 1995 
We next considered the possibility that BB treatment acted as a r 1638227 Results 1995 
We examined lipofuscin levels in the intestines of control and BE 1864834 Results 1995 
Interestingly, BB treatment did not improve survival under mild 1 — 9716135 Results 1998 
Second, calorie restriction, the only known intervention that sw — 9789046 Introduction 1998 
In particular, 8-week dietary supplementation with spinach, stra: 10479711 Introduction 1999 
Studies have shown that specific genetic and environmental facto: 10747056 Introduction 2000 
One contributor to late-age mortality in C. elegans is the detrir 10747056 Results 2000 
To further investigate the effects of blueberries on parameters ı 11089983 Introduction 2000 
However, only the BB-supplemented group exhibited improved perfon 11099865 Introduction 2000 
Blueberries contain a mixture of different polyphenol compounds 1 11099865 Results 2000 
Treatment with the polyphenol, resveratrol, or related compounds, 11242085 Results 2001 
Fractionation of the bulk polyphenols showed that BB's benefits « — 11527963 Discussion 2001 
Plants synthesize an array of chemical compounds that are not im — 11960739 Introductio: 2002 
SEK-1/MAPKK is also required for resistance to pathogenic bacter: 12142542 Results 2002 
BB treatment also delayed the accumulation of aging-related celli — 12208347 Results 2002 
We next examined the effects of BB treatment on a transcriptiona. 12372248 Results 2002 
The absorption, metabolism and tissue distribution of FA has beer 13416264 Discussion 1957 
Intraperiotneal administration of FA to the rats is excreted as : 13654297 Discussion 1959 
The physiological importance of FA and notably its antioxidant p: 13654297 Discussion 1968 
FA is a ubiquitous plant constituent that arises from the metabo) 11121513 Discuss: ion 1983 
zu /二 EM 
图 3 引用 内 容 信息 表格 ( 部 分 ) 
S 
表 时 间 。 
o a 
4.2 引用 情感 识别 
— 3 os di 
4.2.1 AT TFJDF 的 特征 词 第 选 引用 内 容 信 息 抽 


取 完 成 后 ,利用 Stanford POS Tagger 工具 标注 出 引文 内 
容 的 词性 ,然后 基于 TF-JDF 筛选 出 其 中 权重 较 高 的 特 
征 词 (形容 词 JJ. zin] VB, gis] RB 和 连接 词 CC) (部 
分 结果 见 图 4) 。 对 45 629 个 引用 名 进行 词性 标注 , E 
标注 出 1 197 191 词语 的 词性 ,利用 数据 挖掘 软件 
KNIME 分 别 计算 其 TF IDF 和 TF-IDF 值 ,然后 分 别 统 
计 形 容 词 (J) ahis (VB) 副词 RB 和 连接 词 (CC ) 得 
到 基于 TF-IDF 值 的 特征 词 列表 ( 见 表 2)。 
4.2.2 基于 情感 词典 的 引用 情感 识别 ”结合 基础 词 
典 Hownet 中 的 情感 词汇 和 筛选 出 的 特征 词 ,构建 了 抗 
衰老 领域 情感 词典。 具体 操作 步骤 为 :首先 ,将 筛选 出 
的 抗 衰老 领域 特征 词 进 行人 工 标注 ,分 别 标注 TF -IDF 
值 排名 前 300 的 形容 词 (J7) 动词 (V8B) 副词 RB 和 连 
接 词 (CC) ,并 将 其 划分 为 正面 .负面 和 中 立 三 类 ; 然 
后 ,与 Hownet 中 的 情感 词汇 相 结合 ,对 两 个 词 表 中 的 
词汇 进行 去 重合 并 ;最 后 得 到 本 实验 中 需要 的 抗 衰老 
领域 的 情感 词典 。 其 中 ,正面 情感 词汇 共有 4 570 个 ， 
负面 情感 词汇 共有 4 363 个 ,中 立 情感 词汇 共有 235 
个 , 见 图 5。 

根据 本 文 提 出 的 引用 情感 计算 模型 ,在 数据 挖掘 
平台 KNIME 上 ,利用 人 工 标注 的 引用 极 性 数据 集合 进 
行 了 情感 极 性 判别 实验 。 实 验 分 两 组 进行 ,实验 1 组 
利用 基础 词典 Hownet 中 的 情感 词汇 作为 特征 词 ,实验 
2 组 利用 本 文 构建 的 情感 词典 作为 特征 词 。 利 用 本 文 
3.2.2 提出 的 情感 判别 方法 ,将 抽取 出 的 Pubmed 中 抗 
衰老 领域 45 527 个 引用 句 通 过 KNIME 平台 分 别 根据 
2 组 不 同 词典 进行 了 实验 。 实 验 流 程 见 图 6。 
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Type a sentence to tag: 
Ali strains were maintained at 15 on nematode growth medium NGM as described < 
By several measures, BB treatment slowed aging in C elegans , rather than simply 


Row ID |t Tera 


Ros? jisi (POS) ] 


| 
! 
| Table “default” |] Rows: 11 
! 
I 


1 I 
1 1 i 
1 [ i 
| | improving survai at old age. One measure of aging in C. elegans is the speed of 1 Ros lontis (POS)] E |s. i 
i pharynx contraction. or pumping ž Ey PEST. e [m e : 
3 | Regardess ofthe specific mechanism involved. itis clear from mese experiments mat l EÁ mer REUS [5 | 
| | natural compounas avallabie in Dluedemes can prolong lifespan of a whole organism. 1 DE... ncu Ti (POs) f 5 ha : 
* | under certain conditons This is a significant finding that lends support to previous : IBses o 2 lz. | 
| expenments on cultured cells or short-term rodent studies showing benefical effects in I M E k r J k le- l 
į / aging-related declines and stress resistance Other studies have also shown that some . 1 Row15 2 B. H 
1 Other naturally available compounds can aiso prolong C. elegans Mespan under l 1 Mee — | J : i i 1 
hibortory condlione : Rowi? — measures.NNS(POS)] B [d ; 
1 ME LSU SY (POS)] 2 fi. 
| 
H Using the short-ived nematode, C. elegans , we have established a genebc system to M 1 Rov19 EJ NY (POS J 2 la 
| | examine tne effects of BB polyphenois upon longevity and aging. This work shows mat | x E s. i 
* treatment with BB polyphenois, or a PAC-ennched fraction alone. produced moderate - H 1 Rov21 2 13. : 
1 I iB a e l 
: Tag sentence! : Bes c B f2. 5 
1 I 1 Ros24 (C. [NNP (POS) ] 2 EF I 
i : Row25 —— elegans NNS (POS) ] 2 e . 
Rov26 2 Iz 1 
L5 Rov27 J a le. A 
1 | LE 1 4 lz 
:Tagged sentence: ! 1 - 2 ; 3 1 
| aouLD Mespan NN as. RB well RB as_IN improved_VBN mermotolerance -NN [2]| | Hd LEE ue eas 和 B- i 
- | While IN this, DT effect NN was_VBD modest, JJ as. IN compared, VBN with. IN s | Mi”— Go b T ! 
| mutatons_NNS in. iN Iongevy_NN genes. NNS t PRP was, VEO significant JJ. | I 1 Im 2 I 1 
i reliable JJ and, CC robust, JJ To, TO measure, VB levels NNS of IN 4-HNE_NN _ H . 1 Rov33 2 e i A 
| | animals NNS were VBO collected_VBN _ fmed_VBN with IN 4 CO %_NN I | B ja. 92 | 
| formaldehyde NN and, CC permeabilzed .JJ by. IN digestion, NN with, IN type. NN i E i52 E GIC 
。 | IV_CD collagenase NN Sigma, NNP Chemical. NNP Company NNP . . as. IN ! | E zm l 
described VBN Finally RB... oxidatve JJ stress. NN appears VBZto TO be VB a_OT| E : b 33 1 
I Row38 2 fce | 
* | major JJ factor NN limiting VBG Mespan_NN in IN bof CC C. FW elegans. FW r isss 5 0:845 ! 
1 | 
| | ana_CC humans_NNS Upofusan_NN levels_NNS increase, YBP with IN aging. NN | T Er 2 |a- 501 | 
i in. IN many JJ organisms NNS.  induding VBG C. NNP elegans NNS This DT $ 1 EE pharymx NNOPOS)] — 2 |6. 063 
1 | mutation NN results VBZ in, JN overproduction NN of, IN superoude_NN and_CC I | II» a 1.854 I 
T | increased, VED owdative_JJ stress. NN... along IN with_IN accelerated. VEN 75 PCC O0] 3 E jers $ 
。 aging NN and. CC reduced, VBO Mespan, NN One, CD possibie JJ explanation NN | B EE I E (o- ses l 
> i ono - - J - - Je i i ll — nennen»: BE fo. 355 。 
' UM ! 1 Row46 lof CIN (POS)] 2 3 |8. 707 1 
LO i 利用 Stanford POS Tagger 标注 词性 |j 利用 KNIME 计算 TF-IDF fü l 
CTE O NO E re dt U E a DM RM Mn MEM UAE 
[& aL 二 > `. 8 
da 4 词性 标注 与 TF-IDF 值 计 
PR ES 
e 表 2 基于 TF-IDF 值 的 特征 词 列 表 ( 部分) 
" 
形容 词 TF-IDF 动词 TF-IDF 副词 TFJDF 连接 词 TFJDF 
Een) Stretchy 83.55 Degrade 26.20 Alone 19.45 And 16.61 
co Heavy 46.51 Wound 23.73 Ectopically 18.62 Or 11.19 
C4 Radical 44.51 Reverse 22.74 Firmly 15.01 Both 10.51 
© Magnetic 45.84 Flash 18.62 Adequately 15.01 However 9.23 
C4 Phenoxy 37.24 Touch 17.41 Additionally 14.24 Ya 8.95 
"6 Immune 36.27 Count 17.41 Only 14.03 If 8.63 
E Forward 33.42 Discuss 15.51 Accurately 13.70 Sull 8.31 
LE nd 
Embryonic 31.97 Exclude 14.80 Tightly 12. 09 Since 8.31 
Intronic 29.24 Report 14.30 Mostly 10.52 Because 8.31 
Pranic 27,93 Follow 13.41 Partially 10.52 While 7.40 


ch 


File 
Properties Flow Variables 
Table “ 抗 豪 老 领域 情感 词典 . xlsx [Sheet1]” Spec — Columns: 3 
above standard 
abound in gifts of n... |above the commo... |completely 
above criticism abrupt deep-rooted 
above-board abruptly deep-seated 
aboveboard abruptness deeply 
absolutely fair absent-minded definitely 
absolutely fearless absent-mindedly disastrously 
absolutely necessary absentminded downright 
absolutely true absolutely irre... |entirely 
absorbed absolutely lawl... |exceedingly 
abstemious absolutely vici... lexcessively 
abstemiousness absolutely wrong extreme 
abstruse absorption extremely 
abundant absurd fully 
abundantly absurdist greatest 
abundantly clear absurdity greatly 
accessibility absurdly heinous 
accommodating acclivous hundred-per. 
accordant accursed immensely 
according to reason acedia immoderate 
according to rules acerb in a penetr. 
according to the facts jacerbic in every po. 
accurate acerbity in the extreme 
accurately acid incomparably 
ace acidulous ingrained 
act as the occasion lacan sitive matchlessly ad 
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Table Reader Number To String Row Filter Strings To Document Column Filter 
EL [2734 Fp rd» xd» 
e e » a e 
read data stars to strings exclude missing create documents only docs Lag Columa Rule Engine 
"ie DR: 
- » 
SENTIMENT TAGGING - » 
File Reader Node 172 not, very, never N 
TRANSFORMATION PREPROCESSING 
Dictionary tagger Bag of Words Number Filter Punctuation Erasure N Chars Filter Case converter Stop word Filter Snowball Stemme 
" Dictionary tagger Creator (deprecated) (deprecated) (deprecated) (deprecated) (deprecated) (deprecated) 
实验 jg "m » 22 o e > 1 >Re [3-214 > 
Hownet sentiment dictionary = E E k LI - u x Lig 
PERSON = positive s; z " z " m 
File Reader ais TIME = negative Node 36 Node 37 Node 38 Node 181 Node 40 Node 36 Node 150 


e 


实验 2 组 
User's sentiment dictionary 


6 两 组 实验 过 程 


在 结果 评估 方面 ,采用 精度 (Precision ) 召回 率 
(Recal) 和 Fl (8 3 个 指标 。 实 验 结果 如 表 3 所 示 : 


T- 表 3 实验 结果 分 析 
in 精度 (P) 召回 率 F1 


可 率 (BR) 
e 实验 1 组 实验 2 组 实验 1 组 实验 2 组 实验 1 组 实验 2 组 


IMSE 77.31% 78.62% 79.32% 80.13% 78.30% 79.37% 
HSI 81.20% 83.00% 83.20% 84.00% 82.18% 83.3496 
HASJ 76.16% 76.31% 75.36% 76.19% 75.75% 76.25% 


E.. — | A  . 
〇 从 表 3 可 以 看 出 实验 2 ZEE RA RE A E FI 
不 同 程度 的 性 能 提升 ,特别 是 在 负面 引用 判别 
二 性 能 提升 更 加 明显 。 
N 


说 明 本 文 构建 的 引用 情感 词典 


可 以 有 效 提高 识别 效果 。 实 验 2 组 方案 实验 结果 中 ,下 
ee 中 立 引用 占 总 引用 次 数 的 
7896 ,负面 引用 仅 占 总 引用 次 数 的 1% ,如 表 4 所 示 : 

表 4 引用 情感 百分比 统计 表 


引用 情感 引用 次 数 百分比 
正面 引用 2 452 20. 7496 
负面 引用 169 1.4396 
中 立 引用 9 196 77. 82% 


图 7 显示 了 KINME 平台 中 的 具体 实验 结果 ,其 中 
正面 引用 (Positive , POS) , fà t5 | FH ( Negative ,NEG) 和 中 
六 引用 (Neutral , NEU ) 分别 设 置 为 红色 .绿色 和 黄色 。 


BN Table with Colors - 4:310 - Color Manager (Color by sentiment) 
> File 
n — Table "default" -[Rovs: 45527] Spec - Columns: 6 Properties Flow Variables 
x< Row ID | article-idl | S ref-content| | article-id2| D P(Document class-NEG) | D P (Document class=F05 [s P Document less 
RowO 1413581 |All strains... |4366476 0. 986 0. 014 NE A 
[v] Rowi 1413581 |By several ... 7253717 H iJ |NEG 
Row2 1413581 Regardless ... |3374177 |o. 987 0. 013 INEG 
c Row3 1413581 Using the s... 8247153 o 1 IPOS 
amm Row4 1413581 To measure ... [8254383 0. 003 |0. 997 [POS 
Row5 1413581 Finally, ox... |8415630 0 1 [Pos 
C Row6 1413581 iLipofuscin ... |7934213 |o. 986 0. 014 |NEG 
Row 1413581 This mutati... |7934213 0. 003 0. 997 [POS 
© Row8 1413581 One possibl... |7638227 1 |o NEG 
Row9 1413581 [we next con... [7638227 0.987 0. 013 INEG 
Row10 1413581 |We examined... |7864834 1 0 INEG 
Row11 1413581 Interesting... [9716135 0. 986 0. 014 |NEG 
Row12 1413581 Second, cal... |9789046 0. 991 0. 009 INEG 
Rowl3 1413581 In particul... |10479711 0.9 0.1 INEG 
Rowl4 1413581 Studies hav... [10747056 0 1 [POS 
Row15 1413581 [One contrib... |10747056 jo. 991 0. 009 |NEG 
Row16 1413581 To further ... |11089983 0. 987 0. 013 INEG 
Rowi? 1413581 However, on... |11099865 jo. 003 0. 997 [POS 
Row18 1413581 Blueberries. .. |11099865 0. 056 0. 944 [POS 
Rowi9 1413581 Treatment w... |11242085 jo. 003 0. 997 [Pos 
Row20 1413581 Fractionati... |11527963 0. 003 0. 997 [POS 
Row21 1413581 Plants synt... |11960739 o 1 [POS 
Row22 1413581 ISEK-1/MAPKK... 12142542 jo. 003 0. 997 [POS 
Row23 1413581 BB treatmen... |12208347 0. 986 0. 014 INEG 
Row24 1413581 We next exa... |12372248 0. 003 0. 997 [POS 
Row25 2127228 The absorpt... [13416264 0. 003 0. 997 [Pos 
Row26 2127228 Intraperiot... |13654297 0. 003 0. 997 [POS 
Row27 2127228 [The physiol... |13654297 |o. 987 0. 013 INEG 
Row28 2127228 FA is a ubi... |11121513 0. 003 0. 997 [POS 
Row29 2127228 have report... |3555751 0. 003 |o. 997 [POS v. 
« > 


图 7 抗 衰老 领域 引用 情感 识别 结果 


4.3 引用 情感 可 视 化 

本 文 提 出 的 引用 情感 可 视 化 分 析 是 在 传统 引文 网 
络 可 视 化 图 谱 的 基础 上 ,添加 引用 情感 标记 ,构建 出 标 
识 引 用 情感 的 引文 网 络 图 谱 , 从 而 可 以 有 效 发 现 不 同 
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引用 情感 在 整体 数据 集 上 的 分 布 情况 。 

将 被 引 次 数 为 零 的 节点 剔除 (剩余 节点 1127 , 边 
1191) ,处 理 后 得 到 抗 衰老 领域 一 一 初始 引文 网 络 , 见 
图 8。 图 8 中 , 蓝 色 节 点 表示 论文 ,节点 大 小 正比 于 被 
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引 次 数 , 节 点 标签 为 论文 PMID (PubMed 生物 医学 数 。” 18) ,图 中 仪 展示 了 被 引 次 数 排名 前 20 论文 节点 的 
据 库 为 每 篇 论文 赋予 唯一 ID) ,为 了 优化 图 谱 显 示 效 。 ID; 黄 色 有 了 向 连 线 表 示 引 用 方向 ,A 一 B 表示 B 引用 A。 
果 ( 如 果 显 示 所 有 节点 标签 ID 会 遮挡 其 它 关 键 信 


图 8 抗 衰老 领域 一 一 初始 引文 网 络 (被 引 次 数 阅 值 =1) 
注 : 蓝 色 节点 表示 论文 ,节点 标签 为 论文 四 (显示 部 分 ) ,黄色 有 向 连 线 表 示 引 用 方向 


08.00605v1 


GD 然后 ,根据 引用 情感 识别 的 实验 结果 ,为 初始 引文 ” 线 表 示 正 面 引用 ,绿色 有 向 连 线 表示 负面 引用 ,黄色 有 
添加 引用 情感 标记 ,处 理 后 得 到 抗 衰老 领域 一 一 ”向 连 线 表 示 中 立 引 用 。 
标 调 引 用 情感 的 引文 网 络 , 见 图 9。 其 中 ,红色 有 向 连 


V 


naX 


ch 


图 9 抗 衰老 领域 
注 : 蓝 色 节 点 表示 论文 ,节点 标签 为 论文 ID( 显 示 部 分 ) ,有 向 连 线 表 示 引 用 方向 与 引用 情感 ,其 中 ,红色 表示 正面 引用 ,绿色 表示 负面 引用 ， 
黄色 表示 中 立 引 用 


标识 引用 情感 的 引文 网 络 ( 被 引 次 数 阔 值 =1) 
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与 传统 引文 网 络 相 比较 ,图 8 可 以 有 效 识别 出 不 
同 引 用 情感 在 整体 数据 集合 上 的 分 布 情况 。 可 以 进 一 
步 分 析 正 向 引用 链 ,负面 引用 链 , 为 基于 引文 内 容 分 析 
的 文献 计量 学 提供 支持 。 例 如 :节点 10380075 存在 一 
条 负面 引用 (10380075 一 22500228 ,图 8 中 紫色 方 框 标 
出 ) ,为 了 验证 该 引用 情感 识别 结果 的 准确 性 以 及 可 视 
化 图 谱 的 有 效 性 ,在 PubMed 数据 库 中 ,分 别 基于 PMID 
=22500228 和 PMID = 10380075 检索 得 到 文献 Insulin 


in central nervous system: more than just a peripheral hor- 


mone 和 Phosphatidylinositol 3 -kinase -mediated regulation 
of neuronal apoptosis and necrosis by insulin and IGF J, 人 然 
后 定位 至 引用 内 容 : 

In contrast, Ryu et al. | 160] failed to show protec- 


tiom-by IGF-1 against excitotoxic or oxidative stress induced 


is, despite a decrement in neuronal apoptosis. 


加 通过 人 工 判读 引文 内 容 “ 相 比 之 下 ,尽管 在 神经 
细胞 凋 亡 减少 ,Ryu 等 人 未 能 证 明 IGF -1 能 够 防护 、 避 
免 形 胞 发 生 兴奋 性 毒性 或 氧化 应 激 引起 的 细胞 坏死 "， 

知道 该 引用 情感 是 负面 引用 , 即 通过 引用 Ryu 等 


-三 基于 引文 内 容 分 析 的 引用 情感 识别 相关 研究 一 直 
是 全文 分 析 研 究 领域 的 研究 热点 ,特别 是 近年 来 随 着 
全 文 数据 库 和 数据 挖掘 技术 的 发 展 ,以 及 基于 引用 次 
数 的 科研 评价 体系 受到 质疑 ,如 何 利用 现代 信息 技术 
高 效 、 准 确 识别 引文 内 容 情感 并 进行 可 视 化 分 析 , 有 竺 
研究 者 进行 深入 研究 。 

实验 结果 表明 ,本 文 提 出 的 基于 文本 内 容 分 析 的 
引用 情感 识别 方法 与 目前 研究 中 的 引用 情感 分 析 方法 
相 比 ,一 方面 构建 了 基于 特征 词 和 基础 词典 的 抗 衰老 
领域 专门 情感 词典 ,提高 了 引用 情感 识别 结果 的 准确 
性 ;此 外 ,进一步 提出 了 相应 的 引用 情感 可 视 化 图 谱 构 
建 方法 ,有 效 识 别 出 不 同 引用 情感 在 整体 数据 集合 上 
的 分 布 情况 ,在 一 定 程度 上 增加 了 该 研究 的 应 用 价值 。 

本 文 将 引用 情感 分 为 了 正面 负面 和 中 立 引用 三 
种 ,而 实际 科研 活动 中 引用 行为 动机 更 加 复杂 。 因 
此 ,在 下 一 步 的 研究 中 ,将 探索 如 何 识别 不 同 引用 情感 
的 重要 程度 ,以 及 引用 方法 ,引用 工具 、 引 用 模型 等 更 
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加 细 粒 度 的 引用 情感 的 识别 。 
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JAbstract. [ Purpose/significance] The paper proposes an identification method based on the analysis of citations 


cot Nut. And a visual display is presented to overcome the problem of different citation emotions based on simple reference 
frequency measurement. [ Method/process ] First, it uses regular expressions to extract the content information of the text 
iT text. Then, it uses the TF-IDF algorithm to select the quoted emotion feature words, combines the emotional dic- 
tiopdry , and uses emotional analysis technology to quote emotion recognition. Finally, the use of visual tools shows the o- 
ve 到 distribution of the reference emotion. | Result/conclusion | The method can effectively identify emotional informa- 
tiofi ïn the domain of anti-aging. The experimental results show that the positive citation accounts for 2196 of the total cita- 
tion frequency, neutral citation accounts for 7896 of the total citation frequency, and negative citation accounts for only 
196 of the total citation frequency. Compared with the traditional citation network , the visualization map based on citation 
emotion can effectively identify the distribution of different citation emotions on the overall data set. 


Keywords: citation content analysis citation motivation emotion analysis visualization 
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